Руководство по программированию CUDA: Сопоставление аппаратного обеспечения с программным обеспечением: версии вычислительной способности

Вычислительная способность (CC) выступает в качестве версионной моста между виртуальной архитектурой (PTX) и реальной архитектурой (SASS/Бинарный). Разработчики используют nvcc для целевых платформ, от настольных/серверных до встраиваемых, в различных моделях ОС, таких как Linux 64-бит (LP64) или Windows 64-бит (LLP64).

1. Виртуальные и реальные архитектуры

Набор инструментов CUDA поддерживает архитектуры видеокарт последних двух основных версий, упомянутые в Таблице 29: Поддержка функций по вычислительной способности (от 7.5 до 12.x). Мы определяем сопоставления с помощью флагов, таких как: nvcc --generate-code arch=compute_80,code=sm_90 prog.cu. Для будущих целей используются флаги, такие как nvcc -arch=sm_100 или специализированные варианты, такие как nvcc -arch=sm_100a используются.

2. Иерархия макросов

Компилятор использует __CUDA_ARCH__ для ветвления кода. Макрос __CUDA_ARCH__ определён только в коде устройства (например, __device__, __global__). Более тонкое управление обеспечивается макросами __CUDA_ARCH_SPECIFIC__ и __CUDA_ARCH_FAMILY_SPECIFIC__. Некоторые функции, такие как распределённая общая память или конкретные значения NaN, требуют вычислительную способность 9.0+ или вычислительную способность 10.0 и выше.

3. Числовые ограничения и ограничения

Точность зависит от вычислительной способности; например, обработка субнормальных чисел гарантирует $2^{-16382} \approx 3.36 \cdot 10^{-4932}$. Аппаратные ограничения, такие как CUDA_DEVICE_MAX_COPY_CONNECTIONS=16 или директива .maxnreg директива PTX строго соблюдаются в зависимости от целевой версии вычислительной способности.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

Where is the __CUDA_ARCH__ macro strictly defined?

In both host and device code to identify the GPU hardware.

Only in device code (__device__, __host__ __device__, or __global__).

Only in the host-side main() function.

In the NVML API headers only.

QUESTION 2

Which command correctly targets a virtual arch of 8.0 and a real arch of 9.0?

nvcc -arch=sm_80,code=compute_90

nvcc --generate-code arch=compute_80,code=sm_90

nvcc --target=cc_8.0_9.0

nvcc -arch=sm_90

QUESTION 3

What is the consequence of declaring 'namespace cuda { struct foo; }' in CUDA code?

It enables high-speed memory access.

It is an error; the 'cuda' namespace is reserved.

It is required for using cuda::std::result_of.

It allows the use of __nv_atomic_load.

QUESTION 4

Which mathematical property is associated with CC 9.x and higher?

Support for 16-byte data types.

Basic support for fabs(x) and sin(x).

Introduction of the warpSize macro.

Ability to use x + y in kernels.

QUESTION 5

What happens when an extended lambda is defined inside a generic lambda using Microsoft Visual Studio host compilers?

It compiles successfully and inlines perfectly.

The host compiler may fail to inline or throw an error.

It enables __managed__ memory by default.

It triggers the on-disk JIT compilation cache.